Основы работы с Apache Spark в экосистеме Arenadata Hadoop

13-16 октября
15-18 декабря

Курс «Основы работы с Apache Spark в экосистеме Arenadata Hadoop» поможет получить актуальные знания по основам работы с Apache Spark в экосистеме продуктов Arenadata и успешно применять их на практике.

Преимущества курса

Курс единственного в мире вендора-разработчика открытого дистрибутива Hadoop.

Arenadata — единственный вендор, который на базе Apache Hadoop разрабатывает собственный дистрибутив, адаптированный для корпоративного использования и предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Знания с нуля

Слушатели курса без предварительных знаний научатся использовать современные инструменты для разработки (IDE, интерактивные), сборки (Maven, sbt) и запуска приложений Apache Spark на языке программирования Scala (Python, Java), включая различные режимы и способы размещения приложений в Arenadata Hadoop.

Теоретические знания и практический опыт

В рамках курса участники:

  • ознакомятся с основам языка Scala и инструментами разработки;
  • начнут разбираться в архитектуре Apache Spark и её базовых возможностях — RDD, DataFrame, DataSet;
  • смогут настраивать производительность и управлять памятью;
  • получат знания по обработке данных из различных источников (файлы, СУБД, потоки);
  • изучат дополнительные возможности обработки и алгоритмы Spark GraphX и Spark MLlib.

Сертификация

  • Слушателям, успешно прошедшим сертификацию, выдается именной вендорский сертификат.
  • Слушателям курса предоставляется 2 попытки для прохождения проверки знаний.

Что представляет собой курс

Курс «Основы работы с Apache Kafka на базе платформы Arenadata Streaming» − практический тренинг, посвящённый использованию Apache Kafka в среде Arenadata Streaming, а также разработке и запуску приложений с использованием Kafka API на Java.

Аудитория курса

Курс будет интересен разработчикам, аналитикам и архитекторам в области Data Sciencе, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata.

Сертификация

  • Слушателям, успешно прошедшим сертификацию, выдается именной вендорский сертификат.
  • Слушателям курса предоставляется 2 попытки для прохождения проверки знаний.
сертификат

Программа обучения

Модуль 1

Обзор экосистемы Arenadata Enterprise Data Platform (EDP)

  • Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
  • Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
Модуль 2

Apache Spark: работа с большими данными

  • Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet
  • Настройка окружения и запуск приложений:
    • инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt);
    • среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
    • способы запуска программ (client/cluster).
  • Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции.
  • Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
  • Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
  • Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
  • Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
  • Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
  • MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
  • GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.

Итоговое тестирование

«Основы работы с Apache Spark в экосистеме Arenadata Hadoop»

Ближайший старт:

13-16 Октября

Длительность:

4 дня , 32 ак.ч.

Записаться на курс

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Корпоративная группа *
Фамилия *
Имя *
Должность/Роль в компании *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Остались вопросы?

Если вы не нашли ответа на свой вопрос, вы можете воспользоваться формой обратной связи

хочу спросить

Как проходит обучение

Обучение проходит дистанционно в формате вебинаров. Теория перемежается с лабораторными работами, стенд разворачивается для каждого участника, с преподавателями можно общаться на протяжении всего обучения как голосом, так и в чате.

Занятия проводятся с отрывом от производства.

Время проведения занятий с 10:00 до 18:00 мск, если курс рассчитан на целый день.

Корпоративное обучение

Если ваша компания планирует внедрять решения Arenadata или уже работает с ними, вы можете воспользоваться возможностями корпоративного обучения и записать на интересующий курс команду от десяти человек.

Открытые группы

Периодически обучение проходит в смешанных открытых группах. Если вы планируете обучить менее 10 сотрудников, то смело записывайтесь в одну из них. Ориентироваться можно на расписание ниже.

Оставьте заявку на обучение и мы расскажем вам подробнее о том, как набирается группа и сколько свободных мест осталось.

Что получает слушатель по окончанию занятий

После успешной сдачи итогового тестирования, участникам выдается именной вендорский сертификат.

Хотите записаться на курс?

Да, хочу!

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.